19 research outputs found

    Producción de un corpus oral y modelado prosódico para la síntesis del habla expresiva

    Get PDF
    Aquesta tesi aborda diferents aspectes relacionats amb la síntesi de la parla expressiva. Es parteix de l'experiència prèvia en sistemes de conversió de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informació paralingüística com, per exemple, l'emoció del parlant, el seu estat d'ànim, una determinada intenció o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicció de la prosòdia per a la seva utilització en l'àmbit de la síntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generació d'alguns dels mòduls que componen un sistema de síntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenció de parla emocionada o expressiva i de l'experiència prèvia del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validació del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fonètica suficient (segmental i prosòdica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat té una durada de més de cinc hores i conté cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjançant la lectura de textos semànticament relacionats amb els estils definits, s'ha requerit un procés de validació que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluació exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grandària. D'altra banda, no existeix suficient coneixement científic per a emular completament la percepció subjectiva mitjançant tècniques automàtiques que permetin una validació exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un mètode que suposa un avanç cap a una solució pràctica i eficient d'aquest problema, mitjançant la combinació d'una avaluació subjectiva amb tècniques d'identificació automàtica de l'emoció en el parla. El mètode proposat s'utilitza per a portar a terme una revisió automàtica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha permès validar el correcte funcionament d'aquest procés automàtic. En segon lloc i, sobre la base dels coneixements actuals, de l'experiència adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimació de la prosòdia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions lingüística i paralingüística de la prosòdia a partir de l'extracció automàtica d'atributs prosòdics del text, que constitueixen l'entrada d'un sistema d'aprenentatge automàtic que prediu els trets prosòdics modelats prèviament. El sistema de modelatge prosòdic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una tècnica d'aprenentatge automàtic per analogia. Per a l'ajustament d'alguns paràmetres del sistema desenvolupat i per a la seva avaluació s'han utilitzat mesures objectives de l'error i de la correlació calculades en les locucions del conjunt de prova. Atès que les mesures objectives sempre es refereixen a casos concrets, no aporten informació sobre el grau d'acceptació que tindrà la parla sintetitzada en els oïdors. Per tant, s'han portat a terme una sèrie de proves de percepció en les quals un conjunt d'avaluadors ha puntuat un grup d'estímuls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha permès extreure algunes conclusions sobre la rellevància dels trets prosòdics en la parla expressiva, així com constatar que els resultats generats pel mòdul prosòdic han tingut una bona acceptació, encara que s'han produït diferències segons l'estil.Esta tesis aborda diferentes aspectos relacionados con la síntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversión de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite información paralingüística como, por ejemplo, la emoción del hablante, su estado de ánimo, una determinada intención o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicción de la prosodia para su utilización en el ámbito de la síntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generación de algunos de los módulos que componen un sistema de síntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motivó el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtención de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el diseño, la grabación, el etiquetado y la validación del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la señal y una cobertura fonética suficiente (segmental y prosódica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duración de más de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos semánticamente relacionados con los estilos definidos, se ha requerido un proceso de validación que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluación exhaustiva de todos los enunciados del corpus sería excesivamente costosa en un corpus de gran tamaño. Por otro lado, no existe suficiente conocimiento científico para emular completamente la percepción subjetiva mediante técnicas automáticas que permitan una validación exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un método que supone un avance hacia una solución práctica y eficiente de este problema, mediante la combinación de una evaluación subjetiva con técnicas de identificación automática de la emoción en el habla. El método propuesto se utiliza para llevar a cabo una revisión automática de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso automático.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimación de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones lingüística y paralingüística de la prosodia a partir de la extracción automática de atributos prosódicos del texto, que constituyen la entrada de un sistema de aprendizaje automático que predice los rasgos prosódicos modelados previamente. El sistema de modelado prosódico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una técnica de aprendizaje automático por analogía. Para el ajuste de algunos parámetros del sistema desarrollado y para su evaluación se han utilizado medidas objetivas del error y de la correlación calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan información sobre el grado de aceptación que tendrá el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepción en las que un conjunto de oyentes ha puntuado un grupo de estímulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos prosódicos en el habla expresiva, así como constatar que los resultados generados por el módulo prosódico han tenido una buena aceptación, aunque se han producido diferencias según el estilo.This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style

    Adaptación del CTH-URL para la competición ALBAYZIN 2008

    Get PDF
    En esta comunicación describimos el sistema de síntesis de voz presentado a la competición Albayzin 2008. Es un sistema que sigue un esquema clásico de concatenación de unidades basado en corpus. Cabe destacar que los costes de selección se han ajustado mediante un método basado en algoritmos genéticos y que no se ha utilizado ningún sistema de predicción prosódica. Se construyeron dos sistemas preliminares que diferían en el algoritmo de generación de forma de onda escogiendo el que se presenta a la competición mediante un test perceptual.Peer ReviewedPostprint (published version

    La evolución de la Síntesis del Habla en Ingeniería La Salle

    No full text
    Este artículo resume la trayectoria del grupo de Tecnologías del Habla de Ingeniería La Salle (Universitat Ramon Llull) en el marco de la investigación y el desarrollo de sistemas de síntesis del habla. Partiendo del trabajo realizado en las últimas dosdécadas, se presentan las líneas de investigación que se están desarrollando en la actualidad y se definen los objetivos planteados para un futuro próximo. La idea fundamental es conseguir un sistema de síntesis multimodal que haga más agradableel flujo de información desde el ordenador hacia el usuario. La materialización de estos objetivos se pretende llevar a cabo mediante el diseñoo y el desarrollo de un locutor virtual realista conjuntamente con el grupo de Visión por Computador de nuestro centro

    Asignación automática de marcas de pitch basada en programación dinámica

    No full text
    En este artículo se presenta la implementación y evaluación de un sistema de generación automática de marcas de pitch, para el etiquetado de un corpus de voz. El sistema está basado en dos conceptos: la energía de la señal de voz y la programación dinámica. La evaluación es doble: respecto al etiquetado de un corpus de habla contínua en catalán y respecto al funcionamiento de la utilidad de Entropic equivalente. Además se ha desarrollado un sistema híbrido (PDEnt), combinando el sistema de Entropic y los bloques de programación dinámica del sistema que se describe en el artículo. Los resultados que se obtienen para los dos sistemas implementados son muy satisfactorios.Este trabajo se ha realizado con el apoyo del Departament d'Universitats, Recerca i Societat de la Informació de la Generalitat de Catalunya mediante la beca 2000FI-00679 del DOGC 07/02/01

    Ajuste subjetivo de pesos para selección de unidades a través de algoritmos genéticos interactivos

    Get PDF
    Este trabajo se sitúa en el marco de los sistemas de síntesis concatenativa del habla basados en selección de unidades. Concretamente, se ha desarrollado una interfaz que permite establecer los pesos que ponderan los parámetros que intervienen en la función de coste del módulo de selección de unidades, mediante la incorporación de algoritmos genéticos interactivos. De este modo, el proceso de selección incorporará el criterio subjetivo de los usuarios finales del sistema. La aplicación se ha desarrollado bajo una plataforma web y se ha distribuido en distintos servidores para poder ofrecer un buen rendimiento y una alta portabilidad.The work presented in this paper deals with text-to-speech systems based on unit selection. The quality of the synthesis relies on having an accurate unit selection process. Usually, the quality of this procedure can be tuned by adjusting a set of weights that control the selection process. However, in order to achieve a good quality, the tuning process must take into account some subjective dimensions. Interactive genetic algorithms overcome this issue, allowing the user to take active part in the tuning process. With the fusion of the tuning technique and the final user (by means of a web interface), the unit selection can be adjusted to trap the subjective elements that lead to a high quality synthesis.Este trabajo se ha realizado con el apoyo del Departament d’Universitats, Recerca i Societat de la Informació de la Generalitat de Catalunya mediante la beca 2000FI-00679. Además, se ha recibido el apoyo del Technology Research, Education and Commercialization Center, un programa de la Universidad de Illinois at Urbana-Champaign, administrado por el National Center for Supercomputing Applications (NCSA) y patrocinado por el Office of Naval Research (N00014-01- 1-0175). Asimismo, agradecer el apoyo de la Air Force Office of Scientific Research, Air Force Material Command, USAF (F49620- 00-0163), y la National Science Foundation (DMI-9908252)

    Multi-domain text classification for unit selectionText-to-Speech synthesis

    No full text
    This paper presents a new approach for designing aconcatenative text-to-speech (TTS) system based onmulti-domain unit selection. The method achievesgood synthetic quality with reasonable computationalcost for a general-purpose TTS system. The architec-ture of the multi-domain database and the text classi-fication algorithm for domain assignment are the basisof the method. The performance of the adjusted textclassification algorithm for the multi-domain TTS aimis analyzed in several encouraging experiments

    Simultaneous and causal appearance learning and tracking

    Get PDF
    A novel way to learn and track simultaneously the appearance of a previously non-seen face without intrusive techniques can be found in this article. The presented approach has a causal behaviour: no future frames are needed to process the current ones. The model used in the tracking process is refined with each input frame thanks to a new algorithm for the simultaneous and incremental computation of the singular value decomposition (SVD) and the mean of the data. Previously developed methods about iterative computation of SVD are taken into account and an original way to extract the mean information from the reduced SVD of a matrix is also considered. Furthermore, the results are produced with linear computational cost and sublinear memory requirements with respect to the size of the data. Finally, experimental results are included, showing the tracking performance and some comparisons between the batch and our incremental computation of the SVD with mean information

    Un modelo híbrido orientado a la síntesis multimodal del habla

    No full text
    En este artículo se presenta un sistema de conversión texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de síntesis implementado se basa en un modelo híbrido que combina aspectos de un modelo "armónico + ruido", con el que se descompone la señal de voz original en dos componentes, y aspectos del TD-PSOLA. Los procesos de análisis y síntesis se realizan síncronamente con el pitch, de forma que se pueden conseguir modificaciones prosódicas con un alto grado de naturalidad en el habla generada gracias a la representación paramétrica de la señal de voz. Este sistema resulta una buena solución para la síntesis del habla emocionada, que requiere grandes variaciones de la prosodia. El objetivo final de este proyecto consiste en implementar este modelo híbrido de síntesis en un sistema de síntesis audiovisual del habla, capaz de generar síncronamente voz y animación facial para simular expresiones emocionales.In this paper we present a high-quality text-to-speech system using diphones and triphones. The implemented synthesis system is based on a hybrid model that combines a harmonic plus noise decomposition technique with some features of TD-PSOLA. The analysis and the synthesis processes are pitch-synchronous, so prosodic modifications can be generated achieving a more natural-sounding of synthetic speech. This parametric representation of speech outperforms other techniques for concatenative synthesis (e.g., TD-PSOLA) in intelligibility and naturalness, so it is a good solution for emotional speech synthesis, which requires high-quality prosody modifications. The final goal of this project is to integrate this hybrid speech synthesis method in a text-to-audiovisual speech system that can generate synchronously speech and facial animation to emulate emotional expressions.Este trabajo se ha realizado en parte con el apoyo del Departament d'Universitats, Recerca i Societat de la Informació de la Generalitat de Catalunya mediante la beca 2000FI-00679 del DOGC 07/02/01

    Aplicació de tècniques de generació automàtica de la parla en producció audiovisual

    No full text
    En aquest article es presenta un resum del treball de recerca que porta el mateix títol, realitzat gràcies a l’ajut concedit pel CAC en la VII convocatòria d’Ajuts a projectes de recerca sobre comunicació audiovisual. Després d’estudiar el grau d’implantació dels sistemes de síntesi de veu a Catalunya, se n’analitza la viabilitat de l’ús en l’àmbit de la creació de produccions audiovisuals. En aquest article es presenten les conclusions de l’estudi de camp realitzat i dels experiments desenvolupats a partir del sistema de síntesi de la parla de La Salle (Universitat Ramon Llull) adaptat al catalàThis article presents a summary of the research work of the same title, developed thanks to the grant awarded by the CAC in the VII call of research projects on audiovisual communication. After studying the degree of implementation of speech synthesis systems in Catalonia, we analyze the feasibility of its use for the creation of audiovisual productions. This article presents the findings of the field study and the experiments developed after adapting the speech synthesis system of La Salle (Universitat Ramon Llull) to the Catalan language
    corecore